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基于 项 目 模糊 相似 度 的 协同 过 滤 推 荐 算 ; 


E 森 , 陈 莉 , 张 3 
(西北 大 学 信息 科学 与 技术 学 院 , 西安 710127) 


jE 要 : 针对 传统 协同 过 小 算法 中 评分 和 标签 存在 的 模糊 性 问题 进行 了 研究 ， 利 用 梯形 模糊 数 描述 评分 与 满意 度 的 
映射 关系 ， 在 考虑 评分 稀疏 性 的 基础 上 构建 了 一 种 新 的 梯形 模糊 评分 模型 以 判断 基于 模糊 评分 的 相似 度 ， 分 析 标签 
与 项 目的 来 属 度 ， 构 建 模糊 项 目标 签 矩 阵 以 衡量 基于 标签 来 属 度 的 相似 度 ， 最 终 采 用 改进 的 评分 预测 策略 进行 评分 
估计 。 在 MovieLens 数据 集 上 的 实验 结果 显示 ， 所 提 算 法 在 抑制 项 目 冷 启动 、 缓 解 模糊 性 和 稀 玖 性 问题 的 同时 ， 提 
高 了 预测 精度 ， 表 明了 该 算法 的 有 效 性 。 
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Collaborative filtering recommendation algorithm based on item fuzzy similarity 


Wang Sen, Chen Lit, Zhang Jie 
(School of Information Science & Technology, Northwest University, Xi an 710127, China) 


Abstract: In view of the problem of fuzziness of rating and tag in traditional collaborative filtering algorithms, a trapezoidal 
fuzzy number was used to describe the mapping relationship between rating and satisfaction. The algorithm considered the 
impact of sparseness of the rating, constructed a new trapezoidal fuzzy rating model to determine the similarity based on fuzzy 
rating, analyzed the degree of membership between the tag and the item, and constructed a fuzzy item-tag matrix to measure 
the similarity based on the degree of tag membership. Finally, the improved scoring prediction strategy was used to estimate 
the score. The experimental results on the MovieLens dataset show that the proposed algorithm improves the prediction 
accuracy while suppressing the cold start of the project, alleviating the problems of fuzziness and sparseness, which indicate 
the effectiveness of the proposed algorithm. 
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也 可 能 表现 为 不 同 的 评分 。 这 种 评分 -满意 度 关系 的 不 确定 性 
被 称 为 评分 模糊 性 。 此 外 ， 推 荐 系统 中 还 存在 项 目标 签 隶属 


0 引言 


伴随 着 信息 技术 的 莲 勃 发 展 ， 机 构 和 个 人 用 户 产 生 的 数 ” ” 度 不 确定 等 模糊 性 问题 。 
据 量 急剧 增加 ， 导 致 WEB 用 户 难 以 高 效 获 取 有 价值 的 信息 针对 该 问题 ， 学 者 们 提出 了 模糊 协同 过 滤 算 法 ， 使 用 模 
101。 推荐 系统 因 其 可 以 主动 预测 用 户 需求 ， 为 用 户 推荐 数据 ， 糊 理 论 更 恰当 地 表达 协同 过 滤 算 法 输入 数据 列 涵 的 信息 ， 提 
的 特点 ， 已 成 为 缓解 信息 过 载 问题 最 常用 的 方法 之 一 。 升 预测 精度 。Tsai 等 人 外 采用 模糊 集 度量 两 个 业务 之 间 的 相 
办 同 过 滤 (collaborative filtering，CF) 是 目前 应 用 最 广泛 似 度 ， 以 预测 两 家 企业 吸引 同一 用 户 的 可 能 性 。 该 算法 的 准 


的 推荐 技术 ， 其 借助 “ 物 以 类 聚 、 人 以 群 分 ”的 思想 ， 认 为。 确 率 高 于 对 比 算法 33%， 体 现 了 算法 的 优势 。 但 是 其 所 构建 
用 户 对 项 目的 偏好 可 以 根据 邻 域 的 其 余 用 户 对 项 目的 评价 进 ”的 评论 网 络 仅仅 是 基于 同一 个 用 户 对 两 家 企业 发 表 评 论 的 二 
行 推测 ， 或 者 根据 用 户 对 目标 项 目 邻 域 的 评价 进行 推测 叫 。 进 制 变量 ， 未 考虑 评论 的 方差 ， 有 进一步 改进 预测 模型 的 必 
日 是 ， 由 于 互联 网 数据 的 急剧 增加 和 用 户 习惯 的 缺陷 ， 协 同 ” 3E. Vashisth P 等 人 中 使 用 区 间 2 型 模糊 集 创 建 用 户 模型 ， 以 
过 滤 算 法 依然 面临 着 稀 朴 性 、 冷 启动 等 问题 。 捕捉 不 同 用 户 行 为 的 模糊 性 ， 基 于 此 提出 了 模糊 特征 混合 方 

学 者 们 针对 以 上 问题 展开 了 研究 , 例如 , Wei 等 人 DB 将 时 ”法 (fuzzy feature combination hybridzation method, FFCHMD)， 
间 感 知 协同 过 滤 模型 timeSVD ++ 与 深度 学 习 架 构 SDAE 相 ”改善 了 数据 稀 玻 性 问题 ， 但 是 该 方法 的 时 间 复 杂 度 过 高 ， 可 
结合 , 利用 SDAE 提取 项 目 内 容 特征 ,使 用 timeSVD ++ 模 型 ”扩展 性 低 。Wasid M 等 人 09 针 对 基于 内 存 的 协同 过 滤 的 可 扩 
则 评分 以 解决 项 目 冷 启动 问题 Hu 等 人 中 提出 了 一 种 相似 。 展 性 问题 ， 提 出 了 一 种 基于 用 户 模糊 特征 的 推荐 系统 ， 他 们 
度 增 强 机 制 ， 通 过 中 间 用 户 和 项 目 发 掘 潜在 的 相似 性 关系 ， 认为 大 多 数 用 户 特 征 在 本 质 上 是 模糊 的 ， 使 用 模糊 集 可 以 更 
并 从 相似 邻居 中 提取 更 多 数据 以 减少 稀疏 性 问题 。 但 是 此 3 精确 地 描述 用 户 特征 。 该 算法 相 比 于 传统 协同 过 滤 算 法 在 
考虑 协同 过 滤 的 模糊 性 问题 5-7 ,影响 了 推荐 质量 。 MAE、 履 盖 率 、 准 确 性 和 效率 等 指标 上 都 有 提升 。Kant 等 人 
模糊 性 问题 是 指 协同 过 滤 算 法 的 输入 通常 具有 模糊 性 。 5 使 用 局 部 模糊 距离 和 全 局 模糊 距离 衡量 用 户 和 项 目 相似 
例如 在 电影 评分 系统 中 ， 用 户 需 要 从 给 定 评分 集合 中 选择 某 ” 度 以 提升 预测 精度 。 实 验 结果 表明 该 算法 的 覆盖 率 较 高 、 
评分 以 表达 自己 对 项 目的 满意 度 ， 但 是 有 限 的 评分 不 能 充分 MAE 值 较 低 ,但 是 在 稀疏 数据 集中 的 表现 不 佳 。Zhang X 等 
表达 用 户 的 偏好 差异 ， 往 往 只 能 选择 一 个 接近 自己 喜好 程度 。 人 (3 使 用 三 角 模 糊 数 描述 用 户 对 项 目的 综合 评价 ,根据 三 角 
的 评分 ,这 就 意味 着 相同 评分 并 不 代表 用 户 的 偏好 完全 一 致 。 面积 和 中 点 衡量 三 角 模 糊 数 相似 度 以 确定 用 户 相 似 度 ， 提 
另外 ， 由 于 时 间 、 心 情 和 环境 等 因素 的 影响 ， 相 同 的 满意 度 升 了 相似 度 计 算 的 准确 率 。 然 而 三 角 模 糊 数 中 隶属 度 的 最 大 
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秆 只 对 应 一 个 点 ， 灵 活性 逊 于 梯形 模糊 数 ， 导 致 可 扩展 性 较 ”来 描述 模糊 集合 ， 目 前 常用 的 隶属 度 函 数 有 三 角形 、 梯 形 、 


低 。 吴 妆 涛 等 人 03] 借 鉴 年 龄 模糊 模型 将 满意 度 映射 到 原始 评 
分 上 ， 引 入 梯形 模糊 相似 度 计 算 策略 衡量 用 户 相 似 度 以 提升 
推荐 效果 。 他 们 使 用 数学 方式 证 明了 模糊 相似 度 是 余弦 相似 
度 在 模糊 域 上 的 扩展 ， 实 验 结果 表明 该 算法 的 预测 精度 优 于 
基于 三 角 模 糊 数 的 协同 过 滤 算 法 。 但 是 该 算法 的 模型 是 固定 
的 ， 无 法 随 着 数据 集 和 用 户 的 改变 而 自动 调整 。2017 E, R 
谢 涛 等 人 0 在 文献 [13] 的 基础 上 ， 根 据 评 分 的 分 布 情况 自动 
生成 个 性 化 梯形 模糊 评分 模型 ， 基 于 模糊 相似 度 和 模糊 评分 
实施 评分 预测 以 改进 推荐 质量 ， 实 验 结果 表明 该 算法 的 预测 
误差 较 低 。 但 是 该 算法 的 模型 未 考虑 评分 数据 的 稀 玻 性 问题 ， 
致使 部 分 低频 率 评分 对 应 的 梯形 模糊 数 误差 较 大 。 
综 上 所 述 , 模糊 协同 过 滤 算 法 可 降低 输入 数据 的 模糊 性 ， 
提高 相似 度 计 算 的 准确 率 ， 提 升 推荐 质量 。 但 是 ， 目 前 大 多 
数 模糊 协同 过 滤 算 法 依然 存在 以 下 几 个 方面 的 问题 。 
a) 只 模糊 化 协同 过 滤 的 部 分 过 程 ， 缺 少 对 数据 预 处 理 、 
相似 性 计算 和 评分 预测 等 全 过 程 实施 模糊 化 的 算法 。 
b) 模糊 数 的 相似 度 计算 只 考虑 常规 距离 和 重心 距离 , 误 
差 仍然 较 大 。 

c) 忽略 数据 稀疏 性 对 模糊 化 准确 率 的 影响 。 

针对 以 上 不 足 ， 本 文 改进 稀疏 数据 导致 的 评分 数据 统计 
噪声 的 问题 ， 将 评分 转换 成 梯形 模糊 数 ， 使 用 新 的 梯形 模糊 
相似 度 计 算 策略 判断 基于 模糊 评分 的 项 目 相 似 性 (item 
similarity based on fuzzy rating, FRIS)， 利 用 模糊 隶属 度 将 标 
签 与 项 目的 关系 由 {0,1} 扩 展 为 [0,1]， 并 以 此 判断 基于 标签 隶 
属 度 的 项 目 相 似 度 (item similarity based on tags membership, 
TMIS), 然后 融合 以 上 两 种 相似 度 形成 项 目 相 似 度 , 使 用 一 种 
新 的 模糊 评分 预测 策略 进行 评分 估计， 最 终 用 于 推荐 。 在 
MovieLens100K 和 1M 数据 集 上 进行 实验 ， 结 果 表 明 本 文 算 
法 可 在 一 定 程 度 上 改善 模糊 性 和 稀疏 性 带 来 的 不 利 影响 ， 抑 
制 项 目 冷 启动 问题 。 


1 ”相关 工作 


1.1 模糊 集合 与 模糊 数 
经 典 集合 论 中 元 素 i 与 集合 的 关系 只 能 是 属于 或 者 不 
属于 ， 且 满足 式 (1)， 其 中 @ 表示 异 或 关系 。 
[i eU)O(i eU)]-1 (1) 
然而 现实 世界 中 的 概念 大 多 不 是 非 此 即 彼 的 。 例 如 交通 
工具 的 时 速 ， 有 人 认为 60km/h 的 速度 快 ， 另 一 部 分 人 认为 慢 。 
针对 以 上 问题 ，L.A.Zadeh 教授 035 提 出 了 模糊 理论 ， 使 
用 数学 工具 描述 客观 世界 的 模糊 现象 ， 利 用 隶属 度 函 数 将 二 
值 逻 辑 改进 为 连续 值 逻 辑 。 
模糊 集合 是 模糊 理论 的 数据 表现 形式 ， 若 给 定论 域 U， 
合 4 有 式 (2) 所 示 的 映射 关系 ， 则 称 4 是 模糊 集合 。 
4U >01]; up uo Go) Q) 
4 是 4 FE SER E PRG uu 00 的 范围 是 [0,1]。 若 将 模糊 集 


rA 


— 


合 的 隶属 度 1,00 e 0-1] AE 7 ui, o0eton ， 则 模糊 集合 退化 为 经 
集合 。 
模糊 数 是 满足 特定 要 求 的 模糊 集合 ， 可 以 更 精确 地 表现 


协同 过 滤 的 映射 关系 ， 同 时 也 方便 数学 处 理 ， 模 糊 数 的 相关 
概念 如 定义 1 和 2 所 示 。 
定义 1 假设 4sF(R) ,对 于 Y4s(01] f A;-[neUl u, 0022) 
为 4 的 4 截 集 ，4 为 置信 和 度 , 其 中 AeF(R) 表 明 A 是 实数 集 R 
上 的 模糊 集 。 
定义 2 假设 AeF(R)，3xeR 使 得 4(*)=1, H VAe(0.1], 
A; 是 闭 区 间 ， 则 称 A 是 模糊 数 。 
1.2 梯形 隶属 度 函 数 
隶属 度 函 数 决 定 了 对 象 与 模糊 集合 之 间 的 隶属 


度 ， 可 用 


zu 
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高 斯 型 和 钟 型 等 函数 。 
三 角形 与 高 斯 型 隶属 度 函 数 的 趋势 类 似 ， 隶 属 度 先 升 高 
降低 ,区别 在 于 高 斯 型 的 曲线 可 以 更 精确 的 描述 模糊 概念 。 
这 两 种 函数 适用 于 描述 某 一 明确 定义 的 附近 范围 ， 在 明确 定 
义 处 ， 素 属 度 最 大 。 但 由 于 以 上 两 种 函数 只 允许 一 点 处 的 隶 
属 度 为 最 大 值 ， 故 不 符合 用 户 评分 的 习惯 。 
梯形 与 钟 型 隶属 度 函 数 的 趋势 类 似 ， 隶属 度 先 升 高 再 保 
持 最 后 降低 ， 但 是 由 于 钟 型 隶属 度 函 数 构建 模型 的 时 间 消 耗 
过 大 ， 故 可 行 性 较 低 。 梯 形 隶 属 度 函 数 因 为 容易 操作 、 计 算 
简单 且 比 较 贴 合 大 多 数 模 糊 概 念 的 特点 ,应 用 场景 最 为 广泛 。 
并 且 ， 梯 形 隶 属 度 函 数 可 以 通过 调整 参数 退化 成 三 角 隶 属 度 
函数 以 扩大 适用 范围 ， 可 扩展 性 强 。 所 以 ， 本 文 拟 使 用 梯形 
隶属 度 函 数 改进 满意 度 与 评分 的 映射 关系 , 以 提升 推荐 效果 。 
梯形 模糊 隶属 度 函 数 如 图 1 所 示 ， 定 义 如 式 (3) 所 示 。 
0,x<a 
b-a 
Trap (x;a,b,c,d)=341,b<x <c (3) 
d-x 
d-c' 
0,d <x 


,a<x<b 


C<x<d 


A 


? a b c d BER 
图 1 梯形 隶属 度 函 数 
Fig. 1 Trapezoid membership function 
1.8 梯形 模糊 数 的 运算 
吕 用 梯形 隶属 度 函数 的 模糊 数 被 称 为 梯形 模糊 数 。 梯 形 
模糊 数 可 以 使 用 梯形 四 个 项 点 的 横 坐 标 和 最 大 隶属 度 进行 描 
述 。 有 具体 定义 如 式 (4) 所 示 。 
A; =(a raiza sa sW) (4) 

上 式 中 a 表示 梯形 模糊 数 4 的 j 个 顶点 的 横 坐 标 值 ， 
本 ,表示 该 梯形 模糊 评分 的 最 大 隶属 度 。 

假设 有 两 个 梯形 模糊 数 A, 和 4,， 则 它们 的 加 、 减 、 乘 、 
除 运算 如 式 (5)(6)(7) 和 (8) 所 示 。 


A A A A A A 
A+A qe amm (5) 
i EE A 
t Mata WW, 
A A 4 A A A 
AGUA qu qm (6) 
i e | A A 
i Qia aW W., 
Att 7/ai*hasthasthautsW,sr) (7) 
A/17(ail tanl ha aul EW, t) (8) 


本 文 将 结合 以 上 公式 ， 改 进 现 有 协同 过 滤 系统 的 评分 预 
测 策略 ， 利 用 邻 域 的 梯形 模糊 评分 预测 目标 评分 。 
14 信息 量 
香农 在 信息 论 中 通过 事件 发 生 的 不 确定 性 度量 事件 包含 
的 信息 量 ， 即 事件 发 生 的 可 能 性 与 其 包含 的 信息 量 成 反比 。 
言 息 量 计算 如 式 (9) 所 示 。 
H' --p*lg;p (9) 
EB, H RRIF i KARE, p 表示 事件 i 发 生 的 概率 。 
本 文 拟 通过 评分 出 现 的 概率 计算 评分 信息 量 ， 以 此 作为 
权重 调整 不 同 项 目 对 用 户 相 似 性 的 贡献 度 ， 以 提升 相似 度 计 
SIS E 
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度 计 算 策略 ， 导 致 相似 度 计算 误差 较 大 ， 
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阵 ， 提 出 一 种 
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， 本 节 改 进 稀 琉 数据 集 的 评分 统计 方法 ， 


关键 问题 2 
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"i s 


梯形 模糊 评分 代替 原 


台 评 分 进行 相似 度 


决 射 到 


评分 中 ， 
irf. 


分 系统 多 为 5 评分 或 10 评分 系统 ,本 节 以 5 评 


分 系统 为 例 ， 介 绍 新 的 梯形 模糊 评分 模型 。 
梯形 模糊 评分 模型 如 图 2 所 示 ， 横 坐标 为 满意 度 ， 纵 坐 

标 为 隶属 度 ， 范 围 是 [0,1]， 纵 坐标 的 值 越 大 ， 表 示 满 意 度 对 
应 梯形 模糊 数 的 隶属 度 越 大 。 因 为 任意 满意 度 都 可 使 用 评分 
进行 描述 ， 故 在 该 模型 中 ， 任 意 满意 度 对 应 的 评分 隶属 度 之 
和 都 为 1. 
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通过 以 上 改进 ，x; 的 定义 如 式 (13) 所 示 。x, 表示 用 户 A 
的 评分 1 对 应 的 满意 度 置 信 区 间 长 度 ， 故 sm=i 
NE newly; -i) 
zer (13) 
ra 表示 的 满意 度 置信 区 间 由 模糊 域 和 确定 域 组 成 , 相关 定义 
如 式 (14) 和 (15) 所 示 。 
f ,-2* p min pa) (14) 
p,-05* f -05* f ie(2,5.4) 
E (15) 


PTRS FPA, 
六 和 六 中 的 最 小 数 与 描述 模糊 程度 的 参数 p 确定 。 从 图 2 


可 知 fio H f sming2.r, PTEI Pe[005] ; d 表示 确定 域 , 长 
度 由 六 与 模糊 域 共同 决定 , 该 模型 中 每 种 评分 对 应 一 个 确定 


或 。 综 上 所 述 ，5 评分 系统 的 梯形 模糊 评分 模型 由 4 个 模糊 
或 、5 个 确定 域 构成 ， 若 将 确定 域 的 长 度 缩小 为 一 点 ， 则 梯 
模糊 评分 模型 退化 为 三 角 模 糊 评 分 模型 。 

本 模型 中 所 有 梯形 模糊 数 的 1 和 4 顶点 的 纵 坐 标 值 都 为 


0， 顶 点 2. 3 的 纵 坐 标 值 都 为 1， 故 本 模型 的 梯形 模糊 数 定 
义 如 式 (16) 所 示 。 
A,= (Gf. as afs, afa, 1) (16) 


(0.0.1 —0.5* f} ri +0.5* 4,1),i=1 


il i-l 
Yd 059 PS d +05* prt, 
ja ja 


2 -05* fin *05* fil 


| ie {2,3,4} (17) 


(gx- 0.5* f? Èn +05 fida) i=5 
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站 越 喜欢 使 用 该 评分 评价 项 目 ， 
ra 的 定义 如 式 (10) 所 示 。 
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户 未 曾 使 用 过 某 种 评分 


和 (12) 所 示 。 


式 (11)9 
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导致 该 评分 对 应 的 满意 度 
避免 以 上 问题 
n(r,) ， 以 改善 数 提 
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s Fi EE BS iit 
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度 为 0。 为 了 


， 本 文 使 用 new(r, =i) 和 new(x) 改 进 n(x4=i) 和 


HAT 


5 
> newy, -i) 
i=l 


H new(p, =i) 表示 改进 后 A 
通过 赋值 可 变 参数 t 可 以 调整 评分 


LI 
LI 


户 评分 


调整 评分 i 对 应 满意 度 的 最 小 置信 区 


表示 改进 后 | 


JP A 的 总 评分 数 。 


间 长 


Lg SCIAT) 
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Q1) 


(12) 
i 的 出 现 次 数 ， 


岗 次 数 的 最 小 值 ， 进 而 
度 。 式 (12) 中 new(r,) 


值 ，1 表示 该 梯形 模糊 评分 的 最 大 隶属 度 为 1。 
结合 模糊 域 与 确定 域 的 定义 ， A 的 定义 如 式 (17) 所 示 。 


2.2 梯形 模糊 相似 度 

协同 过 滤 算 法 常用 的 余弦 相似 度 等 计算 策 
糊 评 分 的 相似 度 计算 ， 故 本 小 节 以 梯形 模糊 相似 度 为 基础 ， 
结合 评分 信息 改进 梯形 模糊 评分 模型 的 相似 度 计算 策略 19。 

设 两 个 梯形 模糊 评分 为 A, M B, , 根据 Ahmad S 的 定义 ， 
它们 的 相似 度 计算 如 式 (18)(19) 和 (20) 所 示 。 

式 (18) 中 ,四 个 因子 分 别 表示 几何 距离 、 重 心 距离 、 戴 斯 
相似 性 系数 (dice similarity coefficient，DSC)、 豪 斯 多 夫 距 离 
(hausdorff distance,HD)。 其 中 , 几何 距离 度量 了 两 个 梯形 的 横 
向 距离 ， 重心 距离 度量 了 梯形 重心 的 横向 与 纵向 距离 ， 且 由 
于 重心 纵 坐 标 与 梯形 上 下 底 的 长 度 差 距 有 关 ， 故 重心 距离 也 
反映 了 梯形 模糊 评分 中 模糊 域 和 确定 域 的 差别 ，DSC 通常 根 
据 两 个 集合 的 重复 比例 判断 它们 的 相似 性 ， 在 式 (18) 中 ， 
将 DSC 引入 梯形 模糊 评分 , 利用 梯形 顶点 的 横 坐 标 
判断 梯形 的 相似 性 ，HD 将 顶点 横 坐 标 视 为 点 集 以 判断 梯形 
糊 评分 的 最 大 不 匹配 程度 。 
W 4 和 Wa, 表示 梯形 模糊 评分 A 和 B, 的 最 大 隶属 度 ， 本 
文中 设 定 Wa=Ws-。X4 和 Xs 分 别 表示 梯形 模糊 评分 4 和 
B, 重 心 的 横 坐 标 值 。 
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: . . 项 目 上 传 者 或 用 户 对 标签 的 使 用 阔 值 越 低 ， 则 其 操作 的 
waw (2222) (225a: ] (19) e n 和 


W.-(W s; J(o5, «5, )+ (b5,55,) )| (20) 

为 了 使 上 述 相似 度 计 算 更 适用 于 协同 过 滤 算 法 的 需求 以 
提高 预测 准确 率 ， 本 节 引 入 信息 量 作为 权重 加 入 相似 度 计 算 
中 ， 梯 形 模糊 评分 信息 量 的 定义 如 式 (21) 所 示 。 
Hi =—ri *log,ri Q1) 

对 信息 量 做 归 一 化 处 理 后 , 将 信息 量 作为 权重 改进 A, 和 
B, 的 相似 度 计算 ， 具 体 公式 如 式 (22) 所 示 。 
SCA. B) - SKA, B)* Hi * Hj (22) 
综 上 所 述 ， 项 目 I 和 J 的 相似 度 如 式 (23) 所 示 。 
上 式 中 sim_1, 表 示 项 目 i 和 j 的 相似 度 ，U 表示 对 项 目 i 
和 j 共同 评分 的 用 户 集 合 ，n(U) 表示 U 的 数量 ， 若 两 个 项 
未 被 任何 用 户 同 时 评分 ， 则 认为 两 个 项 目的 相似 度 为 0, Rx 
表示 用 户 X 对 项 目 i 的 梯形 模糊 评分 ， 5(R,;R,) 表 示 两 个 梯 
形 模 糊 评分 的 相似 度 。 


H 


Lili 
pp 


[zs (Ra Ra) 


sim_ L, = n(U) 
0,n(U)=0 


2.3 TEMERE AREE 

标签 作为 用 户 和 项 目 自身 携带 的 数据 ， 可 以 体现 用 户 、 
项 目的 特征 , 提供 标签 维度 的 相似 度 ,缓解 评分 稀 玻 性 问题 。 
除 此 之 外 ,标签 不 受 历史 数据 的 制约 ,可 以 抑制 冷 启动 问题 。 
所 以 ， 引 入 标签 改进 协同 过 滤 算 法 的 相似 度 计算 成 为 学 者 们 
研究 的 热点 。 但 是 ， 传 统 协 同 过 滤 算 法 认为 标签 与 项 目的 关 
系 只 是 属于 和 不 属于 ， 忽 略 了 标签 与 项 目 所 属 关 系 的 模糊 性 
问题 ， 导 致 预测 精度 较 差 。 针 对 以 上 问题 ， 本 节 利 用 模糊 隶 
属 度 将 标签 属于 项 目的 隶属 度 {0,1} 扩 展 为 [0,1]， 以 此 提升 
E 荐 质量 。 
推荐 系统 中 项 目 包 含 多 个 标签 。 例 如 ， 一 款 手机 可 能 
含 品牌 、 价 格 、 颜 色 和 处 理 器 型 号 等 标签 。 通 过 这 些 标签 反 
映 的 项 目 类 别 和 特征 ， 用 户 可 以 更 高 效 地 筛选 数据 。 大 多 数 
荐 系统 为 了 保证 标签 的 专业 性 ， 会 提供 标签 集合 供 项 目 选 


择 ， 故 项 目 与 标签 的 关系 可 以 使 用 项 目标 签 和 矩阵 来 表示 。 
假设 拥有 个 标签 的 标签 集合 为 7={tt……td， 其 中 tt 


表示 第 i 个 标签 ,拥有 n 个 项 目的 项 目 集合 为 1={7 ,7,……1,}， 
其 中 万 表示 第 j 个 项 目 ， 则 项 目标 签 矩 阵 可 以 被 表示 为 n*k 
Er RARE M. EY 展示 了 包含 6 个 项 目 和 5 个 标签 的 项 


标签 矩阵 , 其 中 m RRR j 个 标签 属于 第 i 个 项 目 , mu? 
表示 不 属于 。 
del JAHRE BE 
Tab. 1 Item label matrix 
Mij ti tə t; t. ts 
"m 1 0 1 1 0 
I. 0 1 0 0 1 
I; 0 1 0 0 1 
Ia 1 0 0 0 0 
I; 1 1 1 0 1 
I 0 1 0 0 0 
项 目 上 传 者 和 用 户 在 分 配 标签 时 ， 需 要 根据 项 目 内 容 判 


断 标 签 是 否 属 于 项 目 ， 但 是 如 何 判断 项 目 内 容 和 标签 的 所 属 
关系 是 一 个 难点 。 例 如 是 否 包 含 武打 场面 的 电影 就 是 功夫 片 ， 
包含 多 少 科 幻 元 素 的 电影 可 以 被 定义 为 科幻 片 。 所 以 ， 项 目 
标签 的 隶属 度 存在 模糊 性 问题 ， 即 标签 与 项 目 之 间 的 隶属 关 
系 不 应 该 只 是 属于 和 不 属于 的 非 此 即 彼 关 系 ， 而 应 区 分 不 同 
标签 属于 项 目的 程度 。 


项 目 拥有 的 标签 数量 Num, 越 多 , 因而 Num. 与 标签 属于 项 
的 隶属 度 NP; 成 反比 。 同 样 的 ， 从 标签 角度 出 发 ， 标 签 出 现 
次 数 Count, 5 NP, 也 成 反比 。 此 外 , 从 信息 量 的 角度 来 看 ， 
利用 标签 计算 相似 度 时 ， 由 于 标签 包含 信息 量 的 不 同 ， 故 不 
司 标签 对 相似 度 的 贡献 存在 差异 ， 当 标签 在 所 有 项 目 中 出 现 
次 数 越 多 ， 则 表示 该 标签 包含 的 信息 量 越 少 ， 在 计算 基于 标 
签 的 项 目 相似 度 时 应 该 弱化 该 标签 的 影响 权重 。 综 上 所 述 ， 
本 章 算 法 将 Num, 与 Count. 融合 在 NP., 中 。 隶属 度 函 数 的 定 
义 如 式 (24) 所 示 。 


ue 


1 


,P,,*0 
NP, =; Num.*Count: " (24) 
| (0. p,, 20 
以 表 1 所 示 的 项 目标 签 矩 阵 为 例 ， 通 过 式 (24) 计 算 项 


标签 隶属 度 NB, 得 到 的 模糊 项 目标 签 矩阵 如 表 2 所 示 。 
表 2 模糊 项 目标 签 矩 阵 


Tab.2 Fuzzy item label matrix 


NP; t t; ts t ts 
I 0.111 0 0.167 0.333 0 
L 0 0.125 0 0 0.167 
I. 0 0.125 0 0 0.167 
L 0.333 0 0 0 0 
I. 0.083 0.063 0.125 0 0.083 
I. 0 0.25 0 0 0 


为 了 方便 后 续 处 理 , 将 NP; 按照 式 (25) 进 行 归 一 化 , 其 中 
MAX (NP) 表示 NP 中 最 大 的 数值 。 


(25) 


2.4 标签 隶属 度 的 相似 度 

构建 模糊 项 目标 签 矩阵 后 ， 将 每 个 项 目的 标签 隶属 度 视 
lE n 维 向 量 ， 通 过 余弦 相似 度 计算 项 目 相似 度 ， 计 算 公 式 如 
式 (26) 所 示 。 


4, NPas* NPs, 


Mk TE Gr PICS (20) 


2.5 项 目 相似 度 计 算 
将 基于 标签 隶属 度 的 相似 度 sim_2,, 和 基于 模糊 评分 的 


相似 度 sim. 1,, 加 权 融 合成 项 目 相似 度 sim_item,, ， 有 具体 的 定 
义 如 式 (27) 所 示 。4 表示 融合 系数 ，4e[0,1] 。 
sim. item, =(1-D*sim 1 *4*sim, 2, (27) 


2.6 模糊 评分 预测 策略 
传统 协同 过 滤 的 评分 预测 策略 只 适用 于 原始 评分 ， 本 小 
节 改 进 该 策略 以 适用 于 梯形 模糊 评分 模型 ， 具体 步骤 如 下 ， 
a) 利用 模糊 相似 度 预测 用 户 A 对 项 目 i 的 模糊 评分 。 具 
体 方法 如 式 (28) 所 示 。 


à sim. item, * A, 


Pu (28) 


b: |sim item, | 


WH, N 表示 项 目 i 的 邻 域 集合 ，4, 表 示 用 户 A 对 项 目 j 的 
梯形 模糊 评分 数 ，P, 表示 预测 的 梯形 模糊 评分 数 。 

b) 寻找 最 相似 的 模糊 评分 
在 经 典 协同 过 滤 中 ， 评 分 通常 用 整数 表示 ， 故 需要 将 预 
测 的 评分 四 舍 五 入 为 整数 。 例 如 预测 评分 4.3 将 四 舍 五 入 为 
评分 4， 在 此 处 四 舍 五 入 的 本 质 是 为 小 数 评分 寻找 最 相似 的 
整数 评分 。 本 文 使 用 梯形 模糊 相似 度 求 P. 与 用 户 各 梯形 模 
糊 评分 的 相似 度 ， 为 2 寻找 最 相似 的 梯形 模糊 评分 。 

c) 去 模糊 化 
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录用 定稿 Eod 
将 相似 度 最 大 的 梯形 模糊 评分 A, 对 应 的 原始 评分 k 赋 
值 给 预测 的 梯形 模糊 评分 。 


Pu=kif S = max(S SS SeS) 
2.7 算法 描述 
本 文 提出 了 一 种 基于 项 


模糊 相似 度 


(29) 


的 协同 过 滤 推 荐 算 


法 ,利用 项 目标 签 隶 属 度 和 梯 
并 完成 推荐 。 
算法 的 具体 描述 如 下 所 示 。 


模糊 评分 确定 项 目的 相似 度 ， 


户 项 目 评分 矩阵 R、 项 目标 签 
居 数 量 ke 
标 用 户 对 目标 项 目的 预测 评分 。 
根据 式 (11) 和 (12) iSt new(r , =i) I new(y ) ; 
a) WES t A p 构建 梯形 模糊 评分 模型 ; 
b) 根据 式 (23) 计 算 基于 模糊 评分 的 相似 度 ; 
c) 使 用 式 (24) 构 建 模糊 项 目标 签 矩 阵 ; 

d) 利用 式 (26) 计 算 基 于 标签 隶属 度 的 相似 度 ; 
e) 设置 参数 和 ; 
f) 根据 式 (27) 计 算 项 目 相似 度 ; 

g) 利用 式 (28) 预测 模糊 评分 ; 

h) 使 用 式 (29) 对 模糊 评分 去 模糊 化 。 


3 ”实验 结果 及 分 析 


本 节 首 先 介 绍 实验 使 用 的 数据 集 ， 
说 明 对 比 算法 和 实验 环境 ， 最 后 分 析 了 实验 结果 。 
3.1 实验 数据 集 


这 里 采用 


AREE M、 目 标 


Pu 


ca 
T Am 


数据 集 的 相关 信 


息 如 表 3 所 示 。 
RI 实验 数据 身 


Tab.3 Datasets used in experiments 


Tnt 


目标 项 


然后 给 出 评价 指标 ， 


GroupLens 收集 的 MovieLens 100K 和 1M 数 
据 集 ， 该 数据 集 是 验证 推荐 算法 使 用 最 广泛 的 数据 集 之 一 。 


: 基于 项 目 模糊 相似 度 的 协同 过 滤 推荐 算法 


》 ， 将 基于 模糊 评分 的 项 目 相似 度 与 基于 标签 隶属 
相似 度 加 权 融 合 ， 
据 集 和 稀疏 度 中 的 性 能 差异 
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度 的 项 目 
最 终 比 较 IFSCF 算法 和 对 比 算法 在 不 同 数 
异 ， 分 析 本 文 算法 的 特点 。 


eS 


最 小 满意 
\ 区 间 长 度 ， 在 5 评分 系统 
验证 参数 t 对 预测 精 


度 置信 区 间 参 数 t 决定 了 评分 对 应 满意 度 的 最 
的 推荐 系统 中 ，tE[0,0.2]。 为 了 
度 的 影响 ， 控 制 IFSCF(FRIS) 算 法 的 其 


他 变量 


图 可 知 ， 在 100K 数据 集中 ， 


固定 , 设 步 长 为 0.02 进行 实验 ,实验 结果 如 图 3 所 示 。 


0.8 


& 0.74 
0.72 
07 "n 
—"—— l 
0.68 一 5 z 上 i L 1 J 
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 
参数 t 


图 3 


参数 t 对 MAE 值 的 影响 
Fig.3 Effect of parameter t on MAE 
随 着 t 的 增 大 ，MAE fü 


先 急速 


0.7 左右 ， 当 
渐变 大 。 
似 ，MAE fü 1E t-0.12 处 到 达 最 小 ， 当 0.16 时 出 现 回 升 现 象 。 


下 降 再 缓慢 回升 ， 当 te (0.06,0.14) 时 MAE 值 稳定 于 
t-0.1 If, MAE 值 最 小 ， 人 0.14 If, MAE 值 逐 
在 1M 数据 集中 ，MAE 值 的 趋势 与 100K 数据 集 类 


MAE 值 出 现 以 上 趋势 的 原因 是 评分 数据 过 于 稀 玻 导致 


评分 出 现 概率 与 事实 差异 较 大 , 改进 前 的 ri 无 法 
述 最 小 满意 度 置信 区 间 
0.06<t<0.16 时 ,改进 后 的 x 接近 真实 评分 对 应 的 满意 度 置 人 
区 间 长 度 ，MAE 值 来 到 最 小 处 。 
分 之 间 失 去 了 差异 性 ， 引 起 MAE 值 上 升 。 


较 精确 地 i 
值 较 大 。 


长 度 , 因此 t 较 小 时 MAE 


Til 


R 


当 t 逐 渐 趋 近 于 02H], Yl 
通过 以 上 实验 和 


数据 集 户 数 项 目 数 评分 数 Fi iis RE 分 析 ， 固 定 t 的 取 值 为 0.1。 
100K 943 1682 100000 93.7% 模糊 域 参数 p 表示 模糊 程度 ， 决 定 了 满意 度 置信 区 间 中 
1M 6040 3952 1000000 95.8196 模糊 域 的 占 比 ， peE[0,0.5]。 若 p=0 则 表示 未 使 用 模糊 域 ， 
3.2 评价 指标 故 模糊 评分 退化 为 原始 评分 ， 若 p=0.5 则 表示 满意 度 全 是 模 
本 文采 用 推荐 系统 中 常用 的 评价 指标 平均 绝对 误差 糊 域 ， 没 有 确定 域 。 为 了 验证 p 对 实验 结果 的 影响 ， 在 控制 
(mean absolute error，MAE) 判 断 算 法 的 有 效 性 ，MAE 表示 预 其 他 变量 固定 的 情况 下 ， 设 步 长 为 0.05 对 IFSCF(FRIS) 算 法 
测评 分 与 真实 评分 差异 的 平均 值 , MAE 越 大 表明 预测 误差 进行 实验 ， 实 验 结果 如 图 4 所 示 。 
大 ， 反 之 表明 预测 精度 越 高 ， 具 体 定 义 如 式 (30) 所 示 。 — 
Qo 80) 
Ir] 
T 表示 测试 集 ，[T| 表 示 测 试 集 的 数量 ，P,, 表示 用 户 4 对 
项 目 i 的 预测 评分 值 ，R,, 表示 用 户 4 对 项 目 i 的 真实 评分 值 。 
MAE 值 越 小 ， 推 荐 结果 的 精度 越 高 。 
3.8 ”对 比 实验 
为 了 验证 本 文 算法 IFSCF 的 有 效 性 ,对 比 算法 有 文献 [13] 
提出 的 基于 用 户 模 糊 相 似 度 的 协同 过 滤 算 法 FUBCF-1、 文 献 EE E E 
[14] 提 出 的 改进 的 基于 用 户 模糊 相似 度 的 协同 过 滤 算 法 参数 p 
FUBCF-2、 文 献 [11] 提 出 的 模糊 协同 过 滤 算 法 FCF、 文 献 [17] 图 4 参数 p 对 MAE 值 的 影响 
提出 的 基于 模糊 偏差 值 权重 的 协同 过 滤 算 法 FPCF、 文献 [18] Fig.4 Effect of parameter p on MAE 
提出 的 基于 模糊 权重 的 协同 过 滤 算 法 CORFR 。 观察 实验 结果 可 知 , 在 100K 数据 集中 , 随 着 p 的 增 大 ， 
3.4 实验 环境 MAE 值 先 变 小 再 增 大 ， 当 p=0.15 时 ，MAE 值 最 小 。 在 IM 
Inter(R) Core(TM) i5-9300 CPU @2.40GHz, 8.0GB 内 存 ， 数据 集中 ，MAE 的 趋势 与 100K 数据 集 类 似 ， MAE 值 在 
512GB SSD，Windows10 64 位 操作 系统 ，MatlabR2016a。 p=0.2 处 到 达 最 小 值 。 
3.5 实验 结果 及 分 析 当 p 过 小 或 过 大 时 ， 评 分 预测 的 效果 都 不 理想 ， 这 是 因 
为 了 更 清晰 地 表达 各 参数 对 本 算法 性 能 的 影响 ， 本 节 首 ”为 当 模 糊 域 过 大 或 者 过 小 时 ， 都 无 法 较 好 地 描述 梯形 模糊 评 
先 使 用 基于 模糊 评分 的 项 目 相似 度 FRIS 作为 项 目 相 似 度 ， 分 对 应 的 满意 度 置 信 区 间 。 由 MAE 值 的 最 低 点 可 知 ， TR 
分 析 参 数 t 和 p 对 IFSCF(FRIS) 算 法 的 影响 ， 然 后 调整 参数 域 的 范围 略 小 于 确定 域 时 效果 最 好 。 通 过 对 比 p=0.5 和 p-0 
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可 知 ， 全 是 模糊 域 的 满意 度 比 全 是 确定 域 的 满意 度 推 荐 质量 表 可 知 ， 在 100K 数据 集中 ， 任 意 邻 域 数量 下 IFSCF 
更 佳 ， 表 明了 引入 模糊 理论 构建 模糊 域 的 有 效 性 。 通 过 以 上 ” 算法 的 精度 皆 高 于 对 比 算法 ， 在 1M 数据 集中 ， 当 邻 域 数 量 
实验 和 分 析 ， 后 续 的 实验 固定 p 的 取 值 为 0.15。 较 小 时 ，IFSCF 算法 的 误差 大 于 FUBCF-2 和 IFSCF(FRIS) 算 
融合 参数 4 是 基于 模糊 评分 的 相似 度 sim_1 和 基于 标签 ”法 ,但 当 邻 域 数 量 扩大 后 ,IFSCF 算法 的 误差 逐渐 变 为 最 小 。 

的 相似 度 sim_2 的 融合 权重 。 为 了 验证 参数 4 对 IFSCF 算法 IFSCF 算法 引入 了 标签 模糊 隶属 度 ， 理 论 上 可 以 更 好 地 
性 能 的 影响 ， 控 制 近邻 项 目 数量 不 变 ， 设 步 长 为 0.1 进行 实 。 应 对 评分 稀疏 性 问题 , 为 了 验证 以 上 推测 , 本 实验 使 用 100K 
验 ， 实 验 结果 如 图 5 所 示 。 数据 集 ， 在 保证 用 户 数 和 项 目 数 不 变 的 前 提 下 ， 逐 步 减 少数 
08 一 一 一 一 据 集中 的 评分 数量 ， 将 数据 集 的 稀疏 度 从 0.937 逐渐 提升 到 

0.99， 比 较 IFSCF 算法 与 对 比 算 法 在 不 同 稀 玻 度 中 的 表现 。 


实验 结果 如 图 6 所 示 。 


0.86 


0.84 F 


0.82 上 


0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 


参数 072% 
图 5 参数 入 对 MAE 值 的 影响 g mai EI a aE a 
Fig.5 Effect of parameter 4 on MAE abc ET A 
图 可 知 ， 在 100K 数据 集中 ,， 当 4s[0023] 时 ， 随 着 4 的 图 6 不 同 稀 朴 度 下 各 算法 MAE 的 比较 
增 大 ， 预 测 误差 稳步 下 降 并 在 4=0.2 处 到 达 最 低 点 ，MAE 值 Fig.6 MAE with different sparsity 
略 低 于 0.7. 24 4e[02.1] Rf, B A 的 增 大 ， 预 测 误差 逐渐 上 从 实验 结果 可 知 ， 随 着 稀疏 度 的 增 大 ， 可 使 用 的 数据 逐 
升 。 数 据 集 为 IM 时 ，MAE 的 趋势 与 前 者 类 似 ， 当 4=03 时 ， 渐 减 少 ， 各 算法 的 MAE 值 都 不 同 程度 地 增 大 ， 并 且 在 稀 玻 


MAE 值 低 于 0.68。 4=0 和 4=1 处 的 数据 显示 基于 标签 的 相似 EKF 97% 后 增 速 变 快 。 其 中 ，IFSCF 算法 的 MAE 值 增幅 
度 计算 的 评分 预测 精度 略 还 于 基于 模糊 评分 的 相似 度 计算 ， 较 小 ， 预 测 精度 最 高 ， 可 在 稀 玻 数据 中 较 好 地 完成 推荐 。 
这 是 由 于 前 者 主要 负责 改善 项 目 冷 启动 ， 提 高 算法 在 稀 疏 数 


ET i i 4 ”结束 语 
据 中 的 效果 ， 而 后 者 负责 提升 预测 精度 和 推荐 多 样 性 。 通 过 
以 上 分 析 ， 的 值 取 为 0.2。 本 文 引 入 模糊 理论 改善 了 评分 -满意 度 和 项 目 -标签 的 模 
以 邻居 数量 为 变量 ， 取 步 长 为 5， 比 较 IFSCF 算法 与 对  ” 糊 性 问题 ， 提 出 了 一 种 基于 项 目 模糊 相似 度 的 协同 过 滤 推 荐 
比 算法 的 预测 精度 ， 实 验 结果 如 表 4 和 5 所 示 ，N 表示 近邻 算法 ， 利 用 梯形 模糊 数 描述 评分 与 满意 度 的 映射 关系 ， 改 进 
数量 。 模糊 相似 度 计 算 策 略 以 提升 相似 度 计 算 的 精度 ， 使 用 隶属 度 
表 4 100K 数据 集中 各 算法 MAE 值 的 比较 函数 判断 标签 与 项 目的 所 属 程度 ， 根 据 项 目标 签 隶属 度 向 量 
Tab.4 MAE with different neighbors(ML-100K) 计算 基于 标签 的 相似 度 ， 改 进 评分 预测 策略 以 进行 模糊 评分 
N FUBCF 1 FUBCF2 FCF FPCF — CORFR IFSCF FRIS IFSCF 估计 ， 对 基于 项 目的 协同 过 滤 算 法 全 过 程 实 施 了 模糊 处 理 。 
5 0.779 0.758 0.815 0.802 0.797 0.746 0.745 实验 结果 表明 ， 该 算法 可 在 一 定 程度 上 缓解 模糊 性 问题 并 可 
10 0.770 0.734 0.788 0.781 0.774 0.725 0.718 改善 评分 数据 稀疏 性 带 来 的 不 利 影响 。 


15 0.754 0.731 0.775 0.771 0.751 0.715 0.709 


20 0.744 0.727 | 0.768 0.762 0.731 0.711 0.706 参考 文献 
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